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摘要 : 【 目的 】 建立 一 套 集 评 价 句 识别 、 倾 向 性 判定 、 评 价 对 象 抽取 于 一 体 的 评价 分 析 智 能 系统 。[ 方法 】 对 中 
文 评价 知识 本 体 进行 研究 ， 基于 本 体 研 究 成 果 建 立 评 价 分 析 规 则 库 ， 实现 基于 词典 规则 的 评价 分 析 智 能 系统 
CUCsas。[ 结果 】 以 第 7 届 中 文 倾向 性 分 析 评 测 (COAE2015) 发 布 的 50 000 篇 微 博 (共计 133 201 个 句子 ) 为 实验 
数据 , 系统 评 价 句 识别 及 倾向 性 判定 的 正确 率 、 召 回 率 和 下 值 分 别 为 0.83、0.70、0.76, 而 评价 对 象 抽取 的 结 

较 差 。[ 局 限 】 系 统 尚 缺少 评价 新 词 发 现 和 领域 词典 自动 构建 模块 。[ 结论 】 初步 建立 起 一 套 实用 化 的 评价 分 析 
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评价 句 识别 ”倾向 性 判定 ”规则 方法 ”评价 对 象 抽取 


em 语言 知识 , 包括 词汇 知识 (评价 词典 、 否 定 词典 、 程 度 

1 现 有 研究 述评 词典 、 转 折 词 典 等 )、 句 法 知识 (词性 、NP 和 VP 短语 、 
评价 指 人 们 基于 一 定 的 标准 对 事物 做 出 的 讲义 、 依存 关系 等 ) 以 及 语义 知识 (评价 词语 的 语义 指向 特 

贬义 或 襄 贬 混合 的 倾向 性 判断 。 评 价 分 析 ( 也 称 倾 向 性 。” 征 、 施 事 和 受 事 语义 角色 等 ); ESM 有 基于 统计 和 基于 

分 析 ) 近 几 年 持续 成 为 自然 语言 处 理 领 域 研究 的 热点 。 规则 两 种 基本 方法 。 

问题 之 一 ， 它 在 竞选 预测 、 用 户 推荐 、 与 情 监测 、 文 (1) 基于 统计 的 方法 : 张 清亮 等 基于 大 规模 语 料 ， 

献 声誉 追踪 等 诸多 领域 具有 应 用 价值 。 计算 候选 情感 词 与 正 、 负 情感 种 子 词 集 之 间 的 互信 息 


评价 句 (Evaluation Sentences, ES) 包 含 4 个 基本 要 
素 : 评价 主体 [Evaluation Subjects，Sub) 、 评 价 对 象 
(Evaluation Objects, Obj)、 评价 因子 (Evaluation Factors， 
Fac)、 评 价 情 景 (Evaluation Context，Con)， 即 : ES = 
{Sub，Obj，Fac，Con}。 评 价 分 析 智 能 系统 (Evaluation 
Analysis Intelligent System，EAIS) 指 能 够 从 混合 文本 


(MI-IR)， 完 成 情感 新 词 的 识别 和 倾向 性 判定 0; 丁 晨 
春 等 选取 情感 词 、 程 度 副 词 、 和 否定 词 等 特征 训练 SVM 
分 类 器 ,调整 参数 获取 效果 最 优 的 模型 完成 句子 倾向 
性 分 类 乌 ; 童 毅 轩 等 采用 集成 学 习 的 方法 ,将 基于 规 
则 、 基 于 CRF 两 种 分 类 器 的 分 类 结果 作为 特征 训练 
SVM， 进行 微 博 观 点 句 倾向 性 判定 趾 ， 姜 姗 姗 等 选取 


中 自动 识别 出 带 有 评价 意义 的 句子 、 判 断 句 子 的 倾向 
性 以 及 抽取 句子 中 的 评价 对 象 的 智能 系统 , 通常 包括 
评价 知识 本 体 (Evaluation Ontology, EOntology) 与 评价 
求解 算法 (Evaluation Solving Methods, ESM) 两 个 基本 
模块 ， 即 : EAIS = EOntology + ESM。 其 中 , EOntology 
属于 语言 知识 本 体 , 指 系统 完成 评价 分 析 任务 需要 的 


词 、 位 置 、 情 感 词 、 词 性 、 父 节点 位 置 、 依 存 关 系 、 最 
近 名 词 、 基 本 短语 类 型 、 与 情感 词 依赖 关系 、 候 选 评价 
对 象 、 特 征 词 、 关 键 词 、 句 子 极 性 、 观 点 句 共 计 14 类 
特征 训练 CRF 模型 ， 抽取 微 博 观 点 句 中 的 评价 对 象 外 。 

(2) 基于 规则 的 方法 : 王 昌 厚 等 采用 基于 模式 的 
自 扩 展 方法 (Bootstrapping) 获 取 微 博 语 料 中 的 情感 雪 
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词 ,例如 “杭州 /很 /美丽 / 吧 ”,，“ 很 <instance> 吧 ”就 是 一 
个 模式 ,选择 可 信 度 高 的 模式 匹配 语 料 获 取 新 的 
instance， 如 此 反复 迭代 中 ; 侯 敏 等 通过 制定 情感 短语 计 
算 规则 ,对 “程度 副词 | 否定 词 + 情感 词 " 的 情况 进行 情感 
强度 的 增强 、 减弱 和 倾向 性 的 翻转 处 理 ,提升 句子 倾向 
性 判定 的 准确 性 外 周 红 照 等 基于 语义 分 类 构建 包含 
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研究 这 


别 及 倾向 性 判定 的 准确 率 达 到 0.83, 评价 对 象 抽取 的 
结果 较 差 。 
2 评价 知识 本 体 研 究 


评价 分 析 是 伴随 互联 网 技术 的 发 展 (特别 是 进入 
Web2.0 以 后 , 博客 、 贴 吧 、 论 坛 、 微 博 、 购 物 网 站 用 


“规则 群 -规则 簇 -规则 ”三 个 语义 层级 的 比较 句 识别 与 
比较 要 素 抽 取 规则 库 站 ,采用 句法 分 类 和 语义 特征 相 融 
合 的 方法 构建 评价 对 象 抽取 规则 库 ， 实验 效果 良好 由。 
统计 的 方法 基于 经 验 主义 哲学 , 认为 语言 知识 缠 
藏 在 语 料 中 , 机 带 通 过 对 大 规模 语 料 的 学 习 ， 可 以 自 
动 挖掘 语言 知识 ; 规则 的 方法 基于 理性 主义 哲学 ， 认 
为 语言 知识 (语法 和 话 义 规则 等 ) 列 藏 在 人 的 大 脑 中 ， 
人 们 正 是 依靠 存储 在 大 脑 中 的 有 限 规则 生成 和 理解 现 
实 语言 生活 中 的 无 限 具体 句子 。 这 两 种 研究 理念 其 实 
并 不 矛盾 ， 只 不 过 是 分 别 从 实例 (Token) 、 类 型 (Type) 两 
个 不 同 的 视角 来 看 待 “语言 知识 ”问题 。 更 进一步 说 ,两 
者 实质 上 是 相互 贯通 的 ,“ 经 验 中 丝 含 理性 , 理性 是 对 
经 验 的 抽象 概括 ”。 统 计 方 法 的 概率 计算 、 特 征 选取 、 
模型 参数 训练 等 的 目的 就 是 使 系统 最 大 限度 地 贴近 人 
们 使 用 语言 的 规律 , 而且 越 是 贴近 语言 规律 的 系统 , 性 
能 表现 通常 也 会 越 好 。 规 则 方法 也 从 来 不 是 “ 拍 脑 袋 ”， 
它 从 来 都 不 拒绝 语 料 和 从 语 料 中 学 习 外 , 规则 库 中 的 每 
一 条 规则 都 不 是 凭空 产生 的 ， 而 是 源 自 规则 制定 者 自 
己 头 脑 中 储存 的 或 他 人 表现 出 来 的 语言 经 验 (真实 语 
料 ), 规则 制定 者 所 做 的 工作 是 对 具体 语言 经 验 的 抽象 
概括 ， 即 将 符合 相同 语言 模式 的 大 量 实例 抽象 概括 为 
一 条 规则 ， 然 后 将 规则 组 织 成 一 个 有 机 体系 (规则 库 ) 处 
理 类 型 尽 可 能 广泛 的 语言 实例 。 因 此, 统计 和 规则 的 不 
同 只 是 所 走 的 技术 路 线 不 同 , 两 者 并 不 存在 本 质 差异 。 
无 论 是 基于 统计 还 是 基于 规则 的 评价 分 析 方 法 ， 
实质 都 是 在 探寻 完成 某 项 评价 分 析 任 务 需 要 用 到 哪些 
基本 的 语言 知识 ， 以 及 如 何 将 不 同类 型 的 知识 有 机 组 


户 评论 板块 等 社交 媒体 的 兴起 ), 才 开 始 成 为 自然 语言 
处 理 领域 关注 的 对 象 。 而 在 此 之 前 ，Lyons01、Martin 
等 中 Hallidayt 这 些 语言 学 者 已 做 过 “评价 ”的 相关 研 
究 ， 其 研究 成 果 概 述 如 下 : 

(1) 评价 是 语言 主观 性 的 类 型 之 一 ,所 表达 的 是 
一 种 主观 性 意义 ; 

(2) 评价 可 以 由 韵律 、 形 态 、 词 汇 、 句 法 或 胶体 
语言 等 手段 体现 ; 

(3) 评价 在 不 同 的 说 话语 境 中 有 不 同 的 表达 方式 ; 

(4) 评价 表达 方式 的 选择 主要 由 情景 语 境 中 的 语 
旨 要 素 决 定 ; 

(5) 评价 实现 的 是 语言 的 人 际 元 功能 ; 

(6) 评价 是 一 种 心理 过 程 ; 

(7) 评价 不 同 于 表达 对 命题 或 建议 的 不 确定 性 的 
情态 ; 

(8) 评价 可 以 分 为 判断 与 鉴赏 ; 

(9) 评价 有 正 、 负 倾向 性 之 分 , 强 、 弱 情感 程度 
之 别 ; 

(10) 评价 主体 可 以 是 说 话 人 , 也 可 以 是 由 说 话 人 
转 引 的 他 人 。 

这 些 结论 主要 是 从 理论 语言 学 的 研究 视角 得 出 
的 , 而 计算 语言 学 在 研究 对 象 、 研 究 内 容 和 研究 方法 
方面 具有 不 同 于 理论 语言 学 的 特点 和 要 求 。 
2.1 研究 对 象 : 微观 、 具 体 

理论 语言 学 围绕 构建 一 套 严密 的 理论 体系 展开 ， 
需要 通盘 考虑 系统 各 个 组 成 部 分 , 并 将 其 有 机 整合 
来 , 研究 对 象 宏观 、 多 样 。 计 算 语 言 学 的 语言 研究 则 


织 起 来 。 本 文采 用 的 是 规则 方法 , 规则 的 基本 形式 是 
“条 件 一 动作 ” 偶 对 ,， 因 此, 面向 自然 语言 处 理 的 语言 
研究 要 着 重 阐明 规则 的 条 件 5 1。 本 文 首 先 从 计算 语言 
学 的 视角 对 中 文 评 价 知识 本 体 进 行 研究 ,然后 基于 本 
体 研究 成 果 构 建 评价 分 析 规 则 库 , 最 后 程序 实现 为 基 
于 词典 规则 的 评价 分 析 智 能 系统 CUCsas, 在 第 7 届 中 
文 倾向 性 分 析 评 测 (COAE2015) 中 ,该 系统 评价 句 识 
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是 围绕 某 一 具体 的 语言 工程 展开 , 它 只 聚焦 于 完成 该 
项 语言 工程 所 需 的 那 一 部 分 语言 知识 ,对 其 做 深入 细 
致 的 分 析 , 研究 对 象 微观 、 具 体 。 

当 人 们 从 事 评价 分 析 这 一 语言 工程 时 ,首先 要 明 
确 的 是 何谓 “评价 ”? 侯 敏 等 把 语句 中 表达 评价 意义 的 
元 素 ( 包 括 评价 词 、 评 价 短 语 、 评 价 表达 式 、 评 价 性 句 
式 4 种 颗粒 度 大 小 不 同 的 语言 单位 ) 统 称 为 评价 因子 中 。 
确切 地 说 , 评价 因子 是 指 评价 主体 (说 话 人 或 说 话 人 援 


引 的 他 人 ) 在 某 一 话语 情景 下 (时 间 、 空 间 、 交 际 场景 
等 ) 基 于 一 定 的 评价 标准 (道德 、 审 美 、 价 值 标准 等 ) 对 
某 一 评价 对 象 (可 以 是 任何 事物 ) 做 出 的 带 有 主观 倾向 
性 ( 褒 义 、 贬 义 、 误 贬 混 合 ) 的 言语 判断 ( 词 、 短 语 、 表 
达 式 、 句 式 、 语 篇 等 )。 询 贬 倾 向 性 是 评价 因子 区 别 于 
其 他 概念 因子 的 本 质 属 性 。“ 高 兴 、 快 乐 、 难 过 、 悲 伤 ” 
等 情绪 因子 “地震 、 战 争 、 疾 病 、 失 恋 、 险 毁 、 遇 难 、 
改革 、 中 奖 、 升 官 、 订 婚 ” 等 本 身 带 有 正面 或 负面 内 涵 
意义 的 事物 、 现 象 或 事件 因子 ,“ 官 性 、 气 质 、 修 养 、 

才能 、 表 力 、 信 用 、 创 造 力 、 流 畅 度 、 抗 风险 能 力 ” 
等 表示 人 和 事物 的 品质 属性 的 因子 , 均 不 具有 独立 表 
达 奏 贬 倾 向 性 的 能 力 ,因此 不 能 算 作 评价 因子 。 评 价 
因子 概念 特征 如 表 1 所 示 : 

表 1 评价 因子 概念 特征 


概念 名 称 概念 特征 
评价 因子 。 [+ 主观 情感 ,+ 外 办 刺激 造成, + 鹿 贬 倾向 ] 
情绪 因子 。 [+ 主观 情感 ,+ 外 界 刺激 造成 ,- 讲 贬 倾向 ] 
一 [主观 范畴 ,+ 内 心 世界 ,+ 概念 意义 是 褒贬 倾 
于 全 本 了 向 ,+ 没有 内 涵 意 义 ] 
直入 下风 让 加 [+ 客观 范畴 ,+ 外 部 世界 ,+ 概念 意义 是 客观 指 
a "一 称 涵 意 义 是 襄 几 口 
义 的 因子 各 称 ,+ 内 洱 意 义 是 计 且 倾向 ] 
: 源 和 说话 人 ,+ 主观 依赖 性 , 形容词 动词 为 
于 各 四 了 主 ,+ 于 贬 倾向 ,主观 期 望 性 ] 


+ 源 自 事物 本 身 ,+ 客观 独立 性 , + 抽象 名 词 , ~- 襄 
贬 倾 向 , + 主观 期 望 性 ] 


品质 属性 因子 


2.2 ”研究 内 容 : 语言 特征 及 其 组 合 关系 

规则 的 基本 形式 是 “条 件 一 动作 ” 偶 对 , “条 件 ? 指 
的 是 语言 特征 及 其 组 合 关 系 。 与 理论 语言 学 相 比 ， 计 
算 语言 学 的 语言 研究 主要 侧重 对 语言 现象 的 描写 而 非 
解释 , 它 需 要 准确 刻画 出 所 研究 的 语言 问题 的 客观 状 
态 , 无 需 加 以 主观 解释 为 什么 会 呈现 这 样 的 状态 。 因 
此 , 计算 语言 学 很 少 像 理论 语言 学 那样 考虑 语言 之 外 
的 社会 、 文 化 、 心 理 等 外 部 因素 。 不 过 , 这 并 不 意味 
着 计算 语言 学 的 语言 研究 比 理论 语言 学 简单 ， 理 论 研 
究 重 在 思辨 ,对 同一 个 问题 可 以 有 不 同 的 解释 , 答案 具 
有 开放 性 、 不 唯一 性 ; 计算 语言 学 重 在 实践 ， 只 是 自 圆 
其 说 不 行 ,只 有 经 得 住 大 规模 真实 语 料 的 检验 才 算 有 
效 , 最 佳 答案 通常 只 有 一 个 , 即 性 能 表现 最 好 的 系统 采 
取 的 问题 解决 方案 。 有 些 语 言 工程 (例如 机 器 翻译 、 人 
机 对 话 ) 比 较 复 杂 , 要 对 所 研究 的 语言 问题 做 出 如 实 准 
确 、 面 面 俱 到 的 描写 并 非 易 事 , 所 以 其 研究 周期 会 非常 
漫长 , 常常 要 耗费 几 代 人 的 努力 。 
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(1) 区 别 评价 句 、 非 评价 名 依据 的 特征 

评价 句 包含 评价 主体 、 评 价 对 象 、 评 价 因子 、 评 价 
情景 4 个 基本 要 素 。 其 中 , 评价 因子 是 评价 名 的 必 备 要 
素 , 另外 三 个 要 素 不 强制 出 现 。 评 价 因子 又 分 为 上 下 文 
无 关 型 和 上 下 文 相关 型 两 种 ,前 者 不 依赖 语 境 ,本 身 就 
表达 评价 意义 , 后 者 只 有 在 特定 上 下 文 语 境 中 才 表 达 
评价 意义 四 。 评 价 因子 的 语义 类 型 如 表 2 所 示 : 

表 2 评价 因子 的 语义 类 型 


语义 类 型 示例 
上 下 文 无 关 型 美丽 、 优 秀 、 和 敬佩 
误 义 性 名 词 客观 、 阳 光 、 青 春 
贬义 性 名 词 主观 、 机 械 、 封 建 
上 下 文 ”度量 衡 形容 词 高 - 低 、 大 -小 、 长 - 短 
相关 型 ” 语义 偏 移 型 名 词 ” 素质、 价值 、 水 平 
语义 构 式 起 到 Pe 作 上 国 造成 志和 问 


题 、 无 法 和 …… 相 比 
但 是 , 含有 评价 因子 的 句子 未 必 就 是 评价 句 , 例如 : 
不 管 做 什么 事 ， 只 要 勇敢 地 迈 出 第 一 步 , 成 功 的 机 会 

就 有 百 分 之 五 十 。 

@ 为 了 未 来 的 幸福 ,好 好 奋斗 吧 ! 

加 这 是 我 送 你 的 生日 礼物 ， 喜欢 吗 ? 

“勇敢 、 玛 福 、 成 功 、 奋 斗 、 喜 欢 ” 都 是 评价 因子 , 但 
在 上 述 例句 中 并 不 表达 评价 意义 。 这 是 因为 它们 分 别 受 
到 表示 假设 的 连词 "只 要 ”、 表 示 目 的 的 介词 “为 了 ”、 表 
示 询 问 的 句 式 “……… 吗 ”的 管辖 。 笔 者 将 这 种 具有 取消 其 
管辖 范围 内 的 评价 因子 的 评价 意义 功能 的 词语 和 句 式 称 
为 评价 消解 因子 (Xjc), 并 将 其 归纳 概括 为 以 下 类 型 ， 如 
表 3 所 示 : 


表 3 评价 消解 因子 的 语义 类 型 
语义 类 型 示例 
意愿 ”但 愿 、 希 望 、 祝 、 视 愿 、 祝 福 、 祈 祷 
如 果 、 假 如 、 若 、 倘 若 、 假 若 、 假 设 、 要 是 、 要 想 、 


假设 即使、 即便 、 就 算 、 只 要 、 当 …… 时 、…… 的 笑 
猿人 计 、 无 法 判断 、 很 难 判断 、 很 难说 、 能 、 
”” 是否、 会 不 会 、 有 没有 、 是 … 还 是 … 

光 间 。 电 、 娜 几 、 哪 些 、 哪 里 、 哪 个 、 如 何 、 为 何 、 淮 、 


为 哈 、 为 什么 、 什 么 、 吗 、 么 、 呢 、? 
建议 ” 应该、 必须、 应 当 、 需 、 需 要 、 请 
商讨 讨论、 探讨、 商议 、 商 量 、 商 讨 

目的 ”为 、 为 了 、 以 期 、 以 便 、 目 的 是 


因此 , 句子 包含 评价 因子 , 且 评 价 因子 没有 受到 
评价 消解 因子 的 管辖 , 才 构 成 判定 句子 是 评价 句 的 充 
分 条 件 ， 即 : Fac + !Xjc => ED。 
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(2) 抽取 评价 对 象 依据 的 特征 
语义 指向 是 指 句 子 中 的 词语 在 语义 平面 上 支配 
或 说 明 的 方向 I 评价 因子 的 语义 指向 对 象 就 是 所 
要 抽取 的 评价 对 象 ,抽取 评价 对 象 需要 综合 考虑 评价 
因子 的 语义 指向 特征 以 及 整个 句子 的 句法 结构 特征 
来 确定 评价 对 象 相 对 于 评价 因子 的 句法 位 置 ,继而 
抽取 该 位 置 上 的 成 分 (用 词性 或 词性 组 合 来 表示 )。 语 
言 中 的 具体 句子 是 无 限 的 , 但 作为 构成 句子 基本 单 
位 的 词语 数量 是 相对 有 限 的 , 词语 的 语法 类 型 (词性 ) 
和 语义 类 型 也 是 相对 有 限 的 , 词性、 词义 的 组 合 方式 
(句法 结构 、 句 义 结构 ) 也 并 不 是 任意 的 , 而 是 遵循 
定 的 组 合 规 律 。 因 此 , 可 以 利用 词 形 、 词 性 、 词 义 三 
个 最 基本 的 语言 特征 对 评价 各 要 素 (Sub，Obj，Fac， 
Com) 及 其 组 合 关系 (包括 Fac-Obj 的 语义 指向 关系 ) 进 
行 描写 。 与 确定 评价 对 象 位 置 相关 的 语义 特征 主要 有 
以 下 4 类 辐 如 表 4 所 示 : 
表 4 确定 评价 对 象 位 置 相关 的 语义 特征 


语义 特征 内 涵 竺 征 词 示例 
,评价 对 象 通 常 是 其 。 ”佩服 、 艺 视 、 力 握 、 

后 指 动词 后面 的 宾语 。 得 益 于 

jj 评价 对 象 通常 是 其 。” 散 骗 、 污 散 、 变 演 、 

前 指 动词 前面 的 主语 。 有 利于 

、 评价 对 象 通常 是 其 。” 不满、 愤慨 、 反 感 、 

心理 动词 前 而 介词 的 宾语 爱不释手 

各 定名 记 。 评价 对 象 通常 是 其 。 ”功劳 、 奴 性 、 毛 病 、 

前 面 的 定语 。 凝聚 力 


这 4 类 语义 特征 是 基于 语义 指向 方向 对 评价 因子 
进行 的 细 分 , 其 功能 是 辨别 同一 句法 结构 具有 两 种 不 
同 的 潜在 语义 结构 的 情况 ( 形 同 义 异 ), 例如 : 

@ a. 孩 子 他 和 爸 佩 服 孩 子 他 妈 。b. 孩 子 他 答 天 骗 孩子 他 
妈 。 

@) a. 孩 子 他 和 爸 对 孩子 他 妈 不 满 ,b. 孩 子 他 答对 孩子 他 妈 
不 好 。 

”” @ a. 孩 子 他 从 是 孩子 他 妈 的 偶像 。b. 孩 子 他 答 是 孩子 他 
妈 的 功劳 。 

上 述 例 句 中 对 举 的 两 个 句子 语法 结构 完全 相同 ， 
但 评价 对 象 ( 双 下 划 线 内 容 ) 却 分 布 在 不 同 的 句法 位 置 
要 想 对 其 加 以 区 分 , 单纯 依靠 词 形 与 词性 特征 显然 无 
法 完成 。 评 价 对 象 的 位 置 分 布 之 所 以 出 现 差异 , 是 由 
评价 因子 ( 单 下 划 线 内 容 ) 语 义 指 向 特征 的 不 同 导致 的 ， 
只 有 引入 表 4 中 的 几 类 语义 特征 , 才能 准确 判定 这 种 
“ 形 同 义 异 ” 句 型 评价 对 象 的 位 置 分 布 。 
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对 于 非 “ 形 同 义 异 ” 句 型 ,确定 评价 对 象 的 位 置 主 
要 是 根据 特征 词 ( 词 形 特征 ) 与 句法 结构 (词性 组 合 特 
征 )。 笔 者 将 与 确定 评价 对 象 位 置 相 关 的 词 形 和 词性 组 
合 特征 总 结 概括 如 表 5 所 示 : 

表 5 确定 评价 对 象 位 置 的 词 形 和 词性 组 合 特征 


= 


范畴 范畴 三 级 范畴 


X 二 没 1 没 有 1 木 有 二 Y 十 Fac 

X 十 不 能 | 无 法 | 没 法 | 很 难 1 难 以 1 不 
够 | 不 可 能 十 和 1 跟 1 与 1 同 十 Y 十 比 1 
相 比 1 相 比较 | 抗衡 | 竞争 | 对 抗 | 匹敌 | 
同日 而 语 | 相提并论 

X 十 和 1 跟 1 与 1 同 +Y 十 比 | 相 比 | 比较 | 对 
比 | 相 比 较 | 比 起 来 十 Fac 

X 二 和 1 跟 | 与 1 同 +Y 十 没 法 比 @ 

X 十 连 十 Y 十 不 如 @; X 十 不 如 十 Y 

X 十 好 于 四 十 Y 

X+ 是 +Y+ 没 法 比 四 

比 X+ 比 | 较 | 相对 | 相 比 | 相 较 | 对 比 | 比 较 | 比 起 | 相 
本 比较 | 相对 于 +Y+Fac 
较 相 比 | 相对 | 对 比 | 比较 | 相 比 较 | 相 较 | 相对 于 | 
名 比 起 +X, Y+Fac 
X+ 在 +Y+ 之 上 ; X+ 不 是 +Y+ 对 手 | 敌手 
X+ 能 | 能 够 | 足够 可 以 | 足以 + 和 | 跟 | 与 | 同 +Y+ 
比 | 相 比 | 比 较 | 相 比较 | 相提并论 | 抗衡 | 竞争 | 
对 抗 | 比肩 | 匹敌 
X+、| 和 | 跟 | 与 | 及 | 以 及 | 或 | 还 有 | 或 者 +Y+ 类 
似 | 一 样 | 都 +Fac 

X+ 不 输 | 不 次 于 | 媳 美 | 严 敌 | 不 逊色 | 不 逊 于 
+Y 
X(+ 在 | 是 | 算 | 有 | 拥有 | 具有 | 成 为 + 中 | 里 | 里 
面 )+ 最 +Fac|| 首 届 一 指 | 无 人 能 敌 @ 
(在 + 中 | 里 | 里 面 )+ 最 +Facl| 首 届 一 指 | 无 人 能 
敌 (+ 的 + 是 )+X 


差 比 句 


平 比 名 


极 比 名 


主 谓 : 主语 [名 词语 | 谓词 语 ]+Fac 
定 中 : Fac(+ 的 )+ 定 语 中 心 语 [ 名 词语 | 谓 
语 ]; 定 语 [名 词语 | 谓词 语 ]+ 的 +Fac 
动 宾 : 动词 性 Fac+ 宾 语 [名 词语 | 谓词 语 ] 
非 主语 [名 词语 | 谓词 语 ](+ 状 语 [名 词语 | 谓词 
比 意向 语 ]+ 亩 语 中 心 语 荔 词 jtFae 定语 [名 词 形 
较 (复合 容 词 动词 宾语 中 心 语 [名 词 | 滑 词 ] 
句 结构 ) 主语 [名 词语 | 谓词 语 ]+Fac 状语 [名 词 | 形容 
司 | 动词 ]+ 谓 语 中心 语 [动词 ]+ 宾 语 [名 词语 
谓词 语 ] 
分 句 1+, |;|。|? |! (+ 主语 承 前 或 蒙 后 省 略 | 
复句 。 照应 语 )+Fac(+ 宾 语 承 前 或 蒙 后 省 略 | 照应 
语 )+, 上 ;1。|? |! + 分 句 2 


单 句 
{单一 
结构 ) 


i 


(说 明 : D@B@ 指 4 类 差 比 词语 徐 , @) 指 平 比 词语 簇 , (@) 指 极 
比 词语 复 。 除 了 表 中 列举 的 词语 , 还 包括 与 之 同 义 的 其 他 词语 , 例 
如 差 比 词语 徐 除 了 “ 没 法 比 ”, 还 包括 “ 没 得 比 、 比 不 了 、 难 以 抗衡 、 
有 很 大 差距 ”等 词语 。) 


之 所 以 将 评价 句 划 分 为 比较 句 和 非 比较 句 两 大 
基本 范畴 ,是 因为 前 者 需要 抽取 的 评价 对 象 是 复合 
型 的 ， 即 : < 比较 主体 比较 点 >, < 比较 基准 比较 点 >， 
后 者 所 抽取 的 评价 对 象 是 单纯 型 的 ， 即 : < 评价 对 象 
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在 研究 过 程 中 不 断 进行 实验 , 基于 实验 反馈 情况 对 研 
究 方 法 和 结论 进行 修正 。 表 7 是 笔者 人 工 定义 的 评价 
知识 本 体形 式 符号 集 : 

表 7 评价 知识 本 体形 式 符号 集 


属性 >; 在 倾向 性 判定 上 两 者 也 存在 差异 , 例如 ， 差 
比 句 的 < 比较 主体 比较 点 > 倾向 性 = 评价 因子 倾向 
性 ,< 比较 基准 比较 点 > 倾向 性 = 评价 因子 倾向 性 
x(-1)，{ 评 价 对 象 属性 } 的 倾向 性 = 评价 因子 倾向 
性 站。 另外 ,从 表 5 中 可 以 看 出 ， 比 较 句 评价 对 象 位 
置 的 确定 主要 是 根据 特征 词 ( 词 形 特征 ),， 非 比较 句 评 
价 对 象 位 置 的 确定 则 主要 是 根据 句法 结构 (词性 组 合 
特征 )。 
(3) 倾向 性 判定 ( 衰 、 贬 、 赛 贬 混 合 ) 依 据 的 特征 
倾向 性 判定 主要 用 到 评价 因子 、 和 否定 词 (否定 副 
词 、 否 定 动词 )、 转 折 词 三 类 特征 ， 如 表 6 所 示 : 
表 6 倾向 性 判定 依据 的 特征 


特征 类 型 示例 

评价 因子 ( 见 表 2) 

否定 副词 不 、 没 有 、 毫 无 、 尚 未 
和 否定 动词 缺乏 、 欠 缺 、 形 失 、 不 足 
转折 词 但 是 、 可 是 、 然 而 、 不 过 


若 句 中 评价 因子 没有 受到 和 否定 词 管 辖 ，Obj 倾向 
性 =Fac 倾向 性 。 Fac 为 衰 义 , Obj 为 衰 义 ; Fac 为 贬义 ， 
Obj 为 贬义 。 例 如 ; 

@ 这 辆 车 性 能 很 好 。 
图 这 辆 车 性 能 很 差 。 

耕 句 中 评价 因子 受到 和 否定 词 管辖 ，Obj 倾向 性 = 
Fac 倾向 性 x(-1)。 Fac 为 襄 义 , Obj 为 贬义 ; Fac 为 贬义 ， 
Obj 为 侈 义 。 例 如 : 

@@ 这 辆 车 性 能 不 好 。 
(0 这 辆 车 性 能 不 差 。 

当 倾 向 性 相反 的 两 个 评价 因子 语义 指向 同一 个 
评价 对 象 (常用 转折 词 连接 )，Obj 倾向 性 = 褒贬 混 
合 。 例 如 : 

0@ 这 辆 车 性 能 很 好 ， 但 外 观 很 于 。 
2.3 ”研究 方法 : 形式 化 、 实 验 

理论 语言 学 的 研究 目标 是 自然 语言 撰写 的 逻辑 严 
谨 的 文章 , 研究 方法 主要 是 内 省 法 。 计 算 语言 学 的 研 
究 目 标 是 程序 语言 编写 的 实用 化 系统 ， 这 就 要 求 计算 
语言 学 的 语言 研究 要 采用 机 器 可 读 的 形式 语言 , 并 且 


< 


特征 类 型 形式 符号 示例 

上 下 文 无 关 po( 误 义 ) ne( 贬 义 ) cb ( 差 比 ) 

型 评价 因子 pb ( 平 比 )jb ( 极 比 ) 
评价 句 上下文 相 关 pxn( 窒 义 性 名 词 ) nxn( 贬 义 性 名 词 ) 
识别 及 型 评价 因子 ypn( 语 义 偏 移 型 名 词 ) 
定 相 关 评价 消解 因子 。 xjc( 评 价 消解 因 于 ) 

特征 正面 程度 副词 ”mopo( 正 面 程度 副词 ) 

否定 词 mone( 否 定 词 ) 

转折 词 zzc( 转 折 词 ) 

词性 n( 名 词 ) v( 动 词 ) a( 形 容 词 ) d( 副 词 ) 
评价 对 | IT( 代 词 ) p( 介 词 ) c( 连 词 ) e( 叹 词 ) 


象 抽 取 评价 因子 语 hzv( 后 指 动 词 ) qzv( 前 指 动词 ) 
相关 ” 义 指向 xlv( 心 理 动词 ) qdn( 前 定名 词 ) 
特征 ee 
评价 对 象 性 后 q( 产 品名 ) na( 产 品 属 性 名 ) 
和 bs( 评 价 对 象 ) ba( 对 象 属性 ) 


上 述 形式 符号 及 其 对 应 的 具体 词语 以 静态 形式 在 
储 在 词典 中 , 词 条 示例 : 
[佩服 Vv], [佩服 po], [佩服 hzv], [桑塔纳 nq], [发 动机 nal]。 


3 ”规则 实现 


利用 表 7 中 的 形式 符号 ,结合 逻辑 符号 (或 "”、 且 
“&”、 非 “0 站 与 运算 符号 (规则 项 分 隔 符 “+”、 通配符“*”、 
项 位 符 “N,,”、 赋 值 符 “: ”等 ) 对 第 2 节 本 体 研 究 的 语言 
特征 及 其 组 合 关系 进行 描写 ， 就 构成 了 评价 分 析 系 统 
的 规则 库 模 块 (问题 求解 算法 ESM)。 评 价 分 析 规 则 库 
包括 情感 赋值 规则 库 、 情 感 计算 规则 库 、 评 价 对 象 抽 
取 及 极 性 判定 规则 库 三 个 子 库 如 表 8 所 示 。 

规则 的 基本 形式 是 条 件 一 动作 偶 对 , 规则 左 部 表 
示 条 件 , 规则 右 部 表示 在 条 件 满足 的 情况 下 执行 的 操 
作 。 表 8 中 示例 规则 的 具体 含义 如 下 : 

人 @ */mopo + */pxn = #2:0.75 

含义 : 当 讲义 性 名 词 (“青春 、 阳 光 、 理 性 ”等 ) 受 正面 程 
度 副 词 (“很 、 非 常 、 特 别 " 等 ) 修 饰 时 ,赋予 其 0.75 的 情感 值 。 

BB*/xjc + #[*/!w] + */polne = #3:0 

含义 : 当 评价 因子 受 评 价 消解 因子 (但 愿 、 如 果 、 假 如 ” 
等 ) 管 辖 时 ， 取 消 其 评价 意义 。 

@*/mone + */polne =-N2 
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表 8 评价 分 析 规 则 库 
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对 象 "Jeep”， 而 是 会 继续 向 后 扫描 ,寻找 是 否 存在 产 
品 属性 名 , 是否 存 在 管辖 评价 因子 的 否定 词语 。 若 存 
在 * 毫 无 体现 " 则 将 评价 因子 “自由 舒适 ”的 情感 值 > 
(0), 并 且 在 抽取 产品 名 “Jeep" 为 评价 对 象 的 同时 抽取 


类 型 功能 规则 示例 
识别 上 下 文 相关 型 评价 因 
子 并 赋予 其 相应 的 情感 值 
(CE 下 文 无 关 型 评价 因子 的 
情感 照 名 ~ 、 * + 玉 一 
左 值 已 在 情感 词典 中 完 。 ?mopo + “pxn 
成 )。 借 助 情感 词典 与 情感 “< 
赋值 规则 库 , 识别 混合 文 
本 中 的 评价 句 。 
识别 包含 评价 因子 但 并 不 
,表示 评价 的 句子 ,消解 掉 ，， ，， 
角钢 测 名 中 评价 因子 的 倾向 性 ， ”和 
Ee ” 对 先前 识别 的 评价 句 进行 了 
噪声 过 滤 。 
ae 极 性 反 完成 倾向 性 判定 : 襄 一 贬 ，*/mone + */polne = 
规则 库 转 规则 贬 -一 误 。 -N2 


*/po 十 #[*/Ing] 十 
*/zzc + #[*/!(wlng)] 
+*/ne= [N1 + N5]:2 
评价 对 象 抽取 及 抽取 评价 对 象 并 判定 评价 “2a, 
极 性 判定 规则 库 对 象 的 倾向 性 。 NI[bs] TI 


襄 贬 混 完成 倾向 性 判定 : 褒贬 
合 规 则 混合 。 


含义 : 当 评 价 因子 受 否 定 词 (“不 、 没 有 、 宫 无 ”等 ) 管 辖 
时 , 将 其 倾向 性 反 转 。 


DH*/po + #[*/Ing] + */zzc + #[*/!(wInq)] + */ne = [N1 + 
N5]:2 


含义 : 当 一 襄 、 一 贬 的 两 个 评价 因子 语义 指向 同一 个 评 
价 对 象 时 ， 将 评价 对 象 的 倾向 性 判定 为 襄 贬 混合 。 


(© */ng + #[*/lv]] + */na + #[*/lwlnqlna] + */qzv = N1[bs] 
N3[bal] bs:N5 


含义 : 当 产 品名 后 面 出 现 产 品 属 性 名 ,产品 属性 名 后 面 
出 现 评价 因子 且 评 价 因 子 为 语义 前 指 动词 时 ， 抽 取 产 品名 、 
产品 属性 名 为 评价 对 象 、 对 象 属性 ， 并 将 评价 因子 的 情感 值 
赋予 评价 对 象 。 

需要 说 明 的 是 , 评价 对 象 抽取 及 极 性 判定 规则 库 
中 的 规则 并 不 是 任意 排列 的 ， 而 是 遵循 一 定 的 逻辑 顺 
序 。 规 则 排列 的 基本 原则 是 : 比较 句 规则 优先 于 非 比 
较 句 规划 ,特殊 句 式 规则 优先 于 一 般 句 式 规则 , 复 条 
句 规则 优先 于 简单 句 规则 。 这 样 安排 是 为 了 让 规则 库 
尽 可 能 模拟 人 脑 的 信息 处 理 方式 , 例如 : 

@ Jeep 在 其 广告 中 宣称 的 自由 舒适 ， 在 操控 性 、 冬 坐 空 
间 等 方面 毫 无 体现 。( 错 误 抽取 结果 [Jeep 1]; 正 确 抽 取 结 果 
[Jeep 操控 性 、 乘 坐 空间 -1]) 

当 规 则 库 扫 描 到 句子 中 出 现 产品 名 “Jeep” 和 评价 
因子 “自由 舒适 ”时 , 不 会 立即 抽取 产品 名 “Jeep” 为 评 
价 对 象 ， 把 评价 因子 “自由 舒适 ”的 情感 值 “1" 赋 予 评价 


现代 图 书 情报 技术 


产品 属性 名 “操控 性 、 乘 坐 空 间 ” 为 对 象 属性 ; 若 不 存 
在 , 才 会 确认 先前 的 判断 正确 。 也 就 是 说 , 规则 库 是 按 
照 最 大 匹配 和 确定 性 分 析 的 原则 来 匹配 语 料 的 ， 这 在 
一 定 程度 上 可 以 提高 评价 要 素 抽取 的 准确 率 。 最 后 ， 
将 词典 与 评价 分 析 规 则 库 用 C#i 语 言 程序 实现 为 评价 
分 析 智 能 系统 CUCsas。 
4 实验 结果 与 分 析 

CUCsas 系统 参加 了 中 国 中 文 信息 学 会 和 中 国 计 
算 机 学 会 主办 的 第 7 届 中 文 倾向 性 分 析 评 测 
(COAE2015)， 以 评测 发 布 的 50 000 篇 微 博 (共计 
133 201 个 句子 ) 作 为 实验 数据 ,基于 词典 与 规则 的 评 
价 分 析 系 统 CUCsas 的 实验 结果 如 表 9 所 示 : 

表 9 评价 分 析 系 统 CUSsas 实验 (评测 ) 结 果 


微 平均 
任务 系统 
正确 率 召回 率 F 值 
、 Best 0.8395 0.7851 0.8113 
2 CUC 0.8306 0.6984 0.7588 
sas 9 本 

及 极 性 分 
极 性 分 类 Medium 0.6146 0.5642 0.6057 
评价 对 象 Best 0.1117 0.2316 0.1508 
抽取 及 极 CUCsas 0.0495 0.2151 0.0805 
性 判定 Medium 0.0684 0.1655 0.0866 


实验 (评测 ) 结 果 表 明 , CUCsas 系统 在 评价 句 识 别 
及 极 性 分 类 任务 上 表现 较 好 ,尤其 是 正确 率 ， 达 到 
83%， 接近 最 好 成 绩 (文献 [3]); 召回 率 稍 差 , 在 70% 左 
右 。 这 证 明了 所 选取 的 与 评价 句 识别 及 极 性 分 类 相关 
的 6 类 语义 特征 一 一 上 下 文 相关 型 评价 因子 、 上 下 文 
无 关 型 评价 因子 、 评 价 消解 因子 、 程 度 副词 、 否 定 词 、 
转折 词 是 合适 有 效 的 ,情感 赋值 规则 库 和 情感 计算 规 
则 库 对 特征 之 间 组 合 关系 (规则 条 件 ) 一 组 合 结果 (规则 
动作 ) 的 描写 是 基本 准确 的 ,评价 消解 因子 、 程 度 副词 、 
否定 词 和 转折 词 是 规模 较 小 、 相 对 封闭 的 集合 , 评价 
因子 则 是 规模 较 大 、 相 对 开放 的 集合 , 特别 是 在 微 博 
这 样 的 自 媒 体 领域 , 语言 使 用 非常 活跃 , 新 兴 评 价 因 
子 不 断 涌现 ,而且 夹杂 许多 口语 化 的 表达 , 例如 “ 坑 
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驳 、 伤 不 起 、 真 特 么 从 ”由 于 这 些 评 价 词典 没有 收录 
评价 因子 ， 直接 影响 了 系统 的 召回 率 , 今后 将 加 强 词 
典 未 登录 评价 因子 的 自动 发 现 研 究 。 

评价 对 象 抽取 是 整个 评价 分 析 中 难度 最 大 的 一 项 
任务 , 此 次 评测 最 好 成 绩 (文献 [4]) 的 F 值 也 只 有 0.15， 
CUCsas 系统 的 表现 更 差 .正确 率 和 召回 率 都 非常 低 。 
这 一 方面 与 此 次 评测 任务 难度 较 大 有 关 , 评测 要 求 产 
品名 、 产 品 属性 名 、 倾 向 性 同时 抽取 正确 才 算 正确 ， 这 
在 缺乏 领域 词典 支持 的 情况 下 完成 起 来 非常 困难 ; 另 
一 方面 , 与 评价 对 象 抽取 规则 库 还 不 够 完善 有 关 。 今 
后 将 加 强 领域 词典 的 自动 构建 技术 研究 ,同时 对 当前 
规则 库 处 理 出 错 的 情况 以 及 没有 有 覆盖 到 的 情况 进行 修 
正 与 完善 。 


S 结 语 


本 文 提出 了 一 种 面向 评价 分 析 ( 倾 向 性 分 析 ) 的 知 
识 本 体 与 规则 库 构 建 方法 ,首先 从 计算 语言 学 的 视角 
对 完成 评价 分 析 任 务 (评价 名 识别、 评价 对 象 抽取 、 倾 
向 性 判定 ) 需 要 的 语言 知识 本 体 进行 研究 , 然后 基于 本 
体 研究 成 果 建 立 评价 分 析 规则 库 , 最 后 程序 实现 为 基 
于 词典 规则 的 评价 分 析 智 能 系统 CUCsas。 实 验 结果 表 
明 本 方法 具有 较 好 的 准确 性 。 

下 一 步 研究 包括 : 探索 词典 未 登录 评价 因子 的 自 
动 发 现 机 制 ,进一步 提升 系统 评价 名 识别 的 召回 率 ; 
加 强 领域 词典 自动 构建 技术 研究 , 修正 完善 现 有 规则 
库 , 进一步 提升 系统 评价 对 象 抽取 的 性 能 。 
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Evaluation Ontology Research and Rule Implementation 


Zhou Hongzhao Hou Min Teng Yonglin 
(Broadcast Media Language Branch, National Language Resources Monitoring and Research Center, 
Communication University of China, Beijing 100024, China) 


Abstract: [Objective] This study aims to build an evaluation analysis intelligent system consisting of evaluation 
sentences recognition, polarity identification and evaluation objects extraction. [Methods] We first researched Chinese 
evaluation Ontology. Then, established an evaluation analysis rule base based on the results of Ontology research. 
Finally, programmed into evaluation analysis intelligent System CUCsas. [Results| Taking $50,000 weibo messages (a 
total of 133,201 sentences) released by the 7th Chinese Opinion Analysis Evaluation Conference (COAE2015) as the 
experimental data, the precision, recall and F rates of evaluation sentences recognition and polarity identification of 
CUCsas were 0.83, 0.70 and 0.76 respectively, but the experimental result of evaluation objects extraction was poor. 
[Limitations] The system was Short of new evaluation factors discovery and domain lexicons automatic construction 
modules. [Conclusions] A practical evaluation analysis intelligent system was basically built. 

Keywords: Evaluation ontology Evaluation sentences recognition Polarity identification Rule method 


Evaluation objects extraction 
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